你能永远陪我聊天吗?复旦&微软提出StableAvatar:首个端到端
如今随着扩散模型的兴起极大,涌现出大量基于音频驱动的数字人生成工作。具体而言,语音驱动人类视频生成旨在基于参考图像与音频,合成面部表情与身体动作与音频高度同步的自然人像视频,在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。
微软 复旦 端到端 潜变量 stableavatar 2025-08-30 15:07 2
如今随着扩散模型的兴起极大,涌现出大量基于音频驱动的数字人生成工作。具体而言,语音驱动人类视频生成旨在基于参考图像与音频,合成面部表情与身体动作与音频高度同步的自然人像视频,在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。
微软 复旦 端到端 潜变量 stableavatar 2025-08-30 15:07 2
如今随着扩散模型的兴起极大,涌现出大量基于音频驱动的数字人生成工作。具体而言,语音驱动人类视频生成旨在基于参考图像与音频,合成面部表情与身体动作与音频高度同步的自然人像视频,在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。
微软 复旦 音频 端到端 stableavatar 2025-08-30 12:10 3
扩散模型的兴起极大地推动了语音驱动人类视频生成的研究。具体而言,语音驱动人类视频生成旨在基于参考图像与音频,合成面部表情与身体动作与音频高度同步的自然人像视频,在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。然而,现有方法仅能生成时长不足 1
微软 复旦 开源 端到端 stableavatar 2025-08-27 02:34 2